لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش کلاس کارشناسی ارشد پاکسازی داده ها در پایتون [ویدئو]
Data Cleansing Master Class in Python [Video]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
آماده سازی داده ها ممکن است مهمترین بخش پروژه یادگیری ماشینی باشد. این زمانبرترین بخش است، اگرچه کمترین موضوع مورد بحث است. آمادهسازی داده، که گاهی به عنوان پیشپردازش دادهها نیز شناخته میشود، عمل تبدیل دادههای خام به شکلی است که برای مدلسازی مناسب است.
الگوریتم های یادگیری ماشین نیاز به شماره گذاری داده های ورودی دارند و اکثر پیاده سازی های الگوریتم این انتظار را حفظ می کنند. بنابراین، اگر دادههای شما حاوی انواع دادهها و مقادیری هستند که اعداد نیستند، مانند برچسبها، باید دادهها را به عدد تبدیل کنید. علاوه بر این، الگوریتمهای یادگیری ماشینی خاص انتظاراتی در رابطه با انواع دادهها، مقیاس، توزیع احتمال و روابط بین متغیرهای ورودی دارند و ممکن است لازم باشد دادهها را برای برآورده کردن این انتظارات تغییر دهید.
در این دوره آموزشی، روشهای انباشت دادهها و تکنیکهای پیشرفته پاکسازی دادهها، نحوه اعمال تکنیکهای پاکسازی دادههای واقعی در دادههای خود، تکنیکهای پیشرفته پاکسازی دادهها را خواهید آموخت. همچنین یاد بگیرید که چگونه داده ها را به گونه ای آماده کنید که از نشت داده ها و در نتیجه ارزیابی نادرست مدل جلوگیری شود.
در پایان این دوره، شما پیش پردازش داده ها را انجام خواهید داد و به مهارت های پاکسازی داده ها مسلط خواهید شد.
بسته کد کامل این دوره در https://github.com/PacktPublishing/Data-Cleansing-Master-Class-in-Python موجود است. داده ها را به گونه ای آماده کنید که از نشت داده ها جلوگیری شود.
مشکلات مربوط به داده های آشفته را شناسایی و مدیریت کنید
بدانید کدام روش انتخاب ویژگی را بر اساس انواع داده انتخاب کنید
تبدیل توزیع احتمال متغیرهای ورودی
متغیرهای ورودی نامربوط و زائد را شناسایی و حذف کنید
متغیرهای پروژه را در فضایی با ابعاد پایینتر بسازید، اگر قصد دارید در دنیای واقعی یک مهندس یادگیری ماشین شوید، این دوره برای شما مناسب است. شما به یک پایه محکم در پایتون نیاز دارید و باید اصول یادگیری ماشین را بدانید. همچنین، شما باید با کتابخانه های یادگیری ماشینی تخصص داشته باشید. بیاموزید که چگونه از تکنیکهای پاکسازی دادههای واقعی در دادههای خود استفاده کنید * تکنیکهای پیشرفته پاکسازی دادهها را بیاموزید * یاد بگیرید چگونه دادهها را به گونهای آماده کنید که از نشت دادهها و در نتیجه ارزیابی نادرست مدل جلوگیری شود.
سرفصل ها و درس ها
معرفی
Introduction
معرفی دوره
Course Introduction
ساختار دوره
Course Structure
آیا این دوره برای شما مناسب است؟
Is this Course Right for You?
پایه ها
Foundations
معرفی آماده سازی داده ها
Introducing Data Preparation
فرآیند یادگیری ماشینی
The Machine Learning Process
آماده سازی داده ها تعریف شده است
Data Preparation Defined
انتخاب یک تکنیک آماده سازی داده ها
Choosing a Data Preparation Technique
داده در یادگیری ماشین چیست؟
What is Data in Machine Learning?
داده های خام
Raw Data
یادگیری ماشینی عمدتاً آماده سازی داده است
Machine Learning is Mostly Data Preparation
وظایف معمول آماده سازی داده ها - پاکسازی داده ها
Common Data Preparation Tasks - Data Cleansing
وظایف معمول آماده سازی داده - انتخاب ویژگی
Common Data Preparation Tasks - Feature Selection
وظایف معمول آماده سازی داده ها - تبدیل داده ها
Common Data Preparation Tasks - Data Transforms
وظایف مشترک آماده سازی داده ها - مهندسی ویژگی
Common Data Preparation Tasks - Feature Engineering
وظایف معمول آماده سازی داده ها - کاهش ابعاد
Common Data Preparation Tasks - Dimensionality Reduction
نشت داده ها
Data Leakage
مشکل در آماده سازی ساده داده ها
Problem with NaÏve Data Preparation
مطالعه موردی: نشت داده ها: آموزش/آزمون/رویکرد ساده لوح تقسیم شده
Case Study: Data Leakage: Train / Test / Split NaÏve Approach
مطالعه موردی: نشت داده ها: آموزش/آزمون/روش صحیح تقسیم
Case Study: Data Leakage: Train / Test / Split Correct Approach
مطالعه موردی: نشت داده: رویکرد ساده لوح K-Fold
Case Study: Data Leakage: K-Fold NaÏve Approach
مطالعه موردی: نشت داده: رویکرد صحیح K-Fold
Case Study: Data Leakage: K-Fold Correct Approach
پاک کردن داده
Data Cleansing
بررسی اجمالی پاکسازی داده ها
Data Cleansing Overview
ستون هایی را که دارای یک مقدار واحد هستند شناسایی کنید
Identify Columns That Contain a Single Value
ستون هایی با مقادیر کم را شناسایی کنید
Identify Columns with Few Values
حذف ستون های با واریانس کم
Remove Columns with Low Variance
ردیف هایی که حاوی داده های تکراری هستند را شناسایی و حذف کنید
Identify and Remove Rows That Contain Duplicate Data
تعریف نقاط پرت
Defining Outliers
حذف نقاط پرت - رویکرد انحراف استاندارد
Remove Outliers - The Standard Deviation Approach
انتخاب ویژگی با اهمیت
Feature Selection with Importance
تبدیل داده ها
Data Transforms
مقیاس داده های عددی
Scale Numerical Data
مجموعه داده های دیابت برای مقیاس بندی
Diabetes Dataset for Scaling
تبدیل MinMaxScaler
MinMaxScaler Transform
Transform StandardScaler
StandardScaler Transform
داده های مقیاس بندی قوی
Robust Scaling Data
مقیاس کننده قوی برای مجموعه داده اعمال شده است
Robust Scaler Applied to Dataset
محدوده مقیاس کننده قوی را کاوش کنید
Explore Robust Scaler Range
متغیرهای اسمی و ترتیبی
Nominal and Ordinal Variables
رمزگذاری ترتیبی
Ordinal Encoding
رمزگذاری یک داغ تعریف شده است
One-Hot Encoding Defined
رمزگذاری یک داغ
One-Hot Encoding
رمزگذاری متغیر ساختگی
Dummy Variable Encoding
تبدیل رمزگذار ترتیبی در مجموعه داده سرطان پستان
Ordinal Encoder Transform on Breast Cancer Dataset
توزیع ها را بیشتر به صورت گوسی انجام دهید
Make Distributions More Gaussian
تبدیل نیرو در مجموعه داده های ساختگی
Power Transform on Contrived Dataset
تبدیل نیرو در مجموعه داده سونار
Power Transform on Sonar Dataset
Box-Cox در مجموعه داده سونار
Box-Cox on Sonar Dataset
یئو جانسون در مجموعه داده سونار
Yeo-Johnson on Sonar Dataset
ویژگی های چند جمله ای
Polynomial Features
اثر درجات چند جمله ای
Effect of Polynomial Degrees
تحولات پیشرفته
Advanced Transforms
تبدیل انواع داده های مختلف
Transforming Different Data Types
ترانسفورماتور ستونی
The ColumnTransformer
ColumnTransformer در مجموعه داده Abalone
The ColumnTransformer on Abalone Dataset
متغیر هدف را به صورت دستی تبدیل کنید
Manually Transform Target Variable
تبدیل خودکار متغیر هدف
Automatically Transform Target Variable
چالش آماده سازی داده های جدید برای یک مدل
Challenge of Preparing New Data for a Model
Save Model and Data Scaler
Save Model and Data Scaler
بارگیری و اعمال مقیاس های ذخیره شده
Load and Apply Saved Scalers
کاهش ابعاد
Dimensionality Reduction
نفرین ابعاد
Curse of Dimensionality
تکنیک هایی برای کاهش ابعاد
Techniques for Dimensionality Reduction
تحلیل تشخیصی خطی
Linear Discriminant Analysis
تجزیه و تحلیل تفکیک خطی نشان داده شده است
Linear Discriminant Analysis Demonstrated
تجزیه و تحلیل مؤلفه های اصلی
Principal Component Analysis
نمایش نظرات
Packtpub یک ناشر دیجیتالی کتابها و منابع آموزشی در زمینه فناوری اطلاعات و توسعه نرمافزار است. این شرکت از سال 2004 فعالیت خود را آغاز کرده و به تولید و انتشار کتابها، ویدیوها و دورههای آموزشی میپردازد که به توسعهدهندگان و متخصصان فناوری اطلاعات کمک میکند تا مهارتهای خود را ارتقا دهند. منابع آموزشی Packtpub موضوعات متنوعی از جمله برنامهنویسی، توسعه وب، دادهکاوی، امنیت سایبری و هوش مصنوعی را پوشش میدهد. محتوای این منابع به صورت کاربردی و بهروز ارائه میشود تا کاربران بتوانند دانش و تواناییهای لازم برای موفقیت در پروژههای عملی و حرفهای خود را کسب کنند.
نمایش نظرات